Escanear documentos y convertirlos a DJVU (paso a paso)

el noviembre 09, 2009

Primero, escanear el libro / documento. Esto es lo más aburrido, ya que el proceso es totalmente manual. Afortunadamente, al tratarse de texto en blanco y negro, el proceso de escaneo es mucho más rápido de lo que resultaría si tuviera que hacer el scan a color. Por otro lado, el proceso que he seguido es realizar primero un escaneo que genera una vista previa, ajustar el área de escaneo, y finalmente escanear la zona seleccionada.

Aunque es un proceso en tres pasos, en las primeras pruebas que realicé pude comprobar que hacer el escaneo de esta manera era algo más rápido que realizar el escaneo completo de la superficie del cristal y despúes recortar.

El escaneo lo he realizado con las opciones por defecto del programa que acompaña el escáner -aunque tampoco he visto dónde cambiar gran cosa-, así que en este sentido, no me he complicado la vida.

Desde el programa de escaneo, al pulsar el botón de Examinar, me ofrece la posibilidad de utilizar TWAIN o WIA. En mi caso, WIA me permite seleccionar el tipo de documento entre una -corta- lista de opciones, aunque suficientes en mi caso. He utilizado la opción de texto e imagen en blanco y negro, de manera que el fichero resultante es pequeño sin que tenga que sacrificar en resolución. El tamaño medio de una página escaneada ronda los 300KB, mientras que la portada, en color, resulta en un archivo de 7.2MB (o 2.3MB como Imagen en Blanco y Negro).

Una vez he tenido todas las páginas escaneadas y renombradas, he comenzado a investigar cómo pasar los TIFF resultantes en ficheros DJVU.

No he encontrado ningún sitio donde explique exáctamente cómo realizar la conversión (y las búsquedas a través de Google no hacía más que recomendar programas que lo convertien todo). Sin embargo, parecía que todo debía pasar por la utilización de DjVULibre, que parece que es el conjunto de herramientas oficiales para generar los DJVU.

A través del comentario de un amable Anónimo me entero de que existe un servicio online y gratuito que permite la conversión de documentos al formato djvu. El servicio se llama Any2DjVu. Lo he probado con un PDF y ha funcionado correctamente. Es una opción interesante para una conversión ocasional, ya que sólo permite subir un fichero para convertir (nada de subidas masivas). En mi caso, que convertí más de 500 páginas, hubiera supuesto una inversión de tiempo demasiado grande. Pero siempre va bien para una emergencia.

La búsqueda en Google me ha llevado a http://djvu.sourceforge.net, desde donde se puede descargar DjView. El problema es que, como indica su nombre, DjView únicamente permite visualizar los ficheros DjVu, pero no crearlos...

Como la página web se indicaba que DjView se basa en DjVuLibre, he mirado en la carpeta donde se ha instalado el programa y he encontrado las utilidades -de línea de comandos- que sirven para convertir desde los diferentes formatos a DjVu.

En mi caso, como las imágenes escaneadas están en blanco y negro, he utilizado el conversor cjb2.exe. Esta utilidad requiere el nombre del fichero a convertir y el nombre del fichero de salida. Para evitar tener que especificar a manopla los 500 nombres de las páginas, he buscado cómo hacerlo con un script desde la línea de comando.

for %f in (c:\scan\*) do cjb2.exe %f %f.djvu

Esto me ha generado un fichero djvu para cada página, por lo que ahora tengo que agruparlos para conseguir encuadernar el libro digital. Los ficheros djvu generados de esta manera, como %f contiene el nombre completo del fichero tiff, tienen doble extensión: p.ej: 000-portada.tif.djvu. Para facilitar el proceso de encuadernación, he colocado todos los ficheros -excepto la portada- en una carpeta llamada c:\scan\djvu\.

La encuadernación la he realizado en dos pasos: primero, he creado el libro conteniendo únicamente la portada; después, he añadido mediante un script el resto de páginas.

La creación del libro la he realizado de la siguiente manera:

djvm.exe -c c:\book.djvu c:\scan\000-portada.tif.djvu

A continuación, he añadido el resto de páginas mediante:

for %f in (c:\scan\djvu\*) do djvm.exe -i c:\book.djvu %f >>c:\book.log

La opción -i añade una página al libro, y como no especifico el número de página, la inserta al final. He añadido la redirección a un fichero de registro porque en el primer intento me ha parecido que fallaba una página, y no sabía cúal era.

Finalmente, he visualizado el libro digital resultante con DjView.

DjView permite exportat el libro en formato DjVu a PDF, aunque esto resulta en un fichero de casi el doble de tamaño que el fichero original en DjVu.

El fichero resultante se ha formado a partir de imágenes escaneadas, y no a partir de texto, por lo que no es posible buscar en el contenido del libro. Podría utilizarse un OCR para convertir lo escaneado a texto, pero dudo de que la conversión fuera eficaz teniendo en cuenta que el libro está en castellano y que contiene muchas fórmulas matemáticas...

En cualquier caso, DjView no permite anotar el fichero resultante DjVu, mientras que a un PDF sí que podemos añadir notas o texto. WinDjView sí que permite resaltar texto, añadir notas, comentarios y bookmarks. (Las notas y demás añadidos por WinDjView no se visualizan en DjView, por lo que es probable que sean extensiones y que no estén soportadas por todos los programas).

Comentarios

Anónimo ha dicho que…

Hola, prueba any2djvu.djvuzone.org es un conversos online a formato DjVu con varios formatos de entrada.

7:44 p. m.

Fermat ha dicho que…

Este comentario ha sido eliminado por el autor.

8:07 p. m.

Xavi Aznar ha dicho que…

@Fermat: El script convierte ficheros de tipo imagen (en el ejemplo, son TIFF) a DJVU.

Para poder convertir ficheros PDF a DjVU, te recomiendo PDF To DjVu. El enlace es a una herramienta que proporciona un interfaz gráfica para djvu2pdf, una herramienta de código abierto.

Para trocear, unir y en general hacer cualquier cosa imaginable a un fichero DjVu, te recomiendo DjVuToy, de la que hablé en este post: DjVuToy-La navaja suiza definitiva para ficheros 'djvu'.

Por último, un consejo: no deberías poner nunca tu dirección de correo en los comentarios de un blog, pues es una manera segura de hacer que los robots de los spammers capturen tu dirección de correo electrónico y que te la inunden de anuncios desagradables...

En cualquier caso, espero que los enlaces te sirvan de ayuda.

Un saludo.

9:33 p. m.

Fermat ha dicho que…

Self, Gracias pero sabes yo ulilizo esa herramienta(PdfToDjvuGUI) pero hay un pequeño problema xq coloco un libro de aprox 28 megas q hacen un total de 778 paginas (en mi caso) y solo me logra pasar a .djvu las primeras 500 y pico hojas, a q se debe? o solo hasta esa cantidad llega, gracias por todo y x el consejo. atte.Fermat.

6:25 p. m.

Xavi Aznar ha dicho que…

@Fermat:
He buscado en Google "pdf2djvu limitations" y mirando los dos primeros resultados parece que podría ser un problema con "pdf2djvu". En la página oficial de PDF2DjVu hay un informe de error diciendo que "el programa a veces se para durante la conversión" (traducción libre). El informe es de Diciembre del 2010, así que es probable que no esté solucionado todavía.

En el segundo resultado nos dirige al foro del creador de la herramienta gráfica. El título del hilo es bastante parecido a lo que comentas: "PDF2DJVUGUI se para al convertir PDFs grandes" (de nuevo, más o menos). En las pruebas realizadas por alguno de las personas que comentan en el foro dicen que se les para en la página 51X, otros en la 8XX, así que no parece que haya un límite claro.

En uno de los posts, el autor de la herramienta gráfica dice que ha "incrementado el límite de páginas", añadiendo un enlace a otro hilo del foro... Pero parece que la URL del foro ha sufrido cambios y el enlace no apunta a ningún sitio. :(

Sin embargo, es interesante que le eches un vistazo a la última entrada del hilo (por Youichi): The thing is, after the last page is converted, pdf2djvu will invoke djvused and the processing will take quite some time without any visible message in the output window.
Actually, especially on a slower machine, it would look like as if the machine has stalled.

So, you may go out for lunch or coffee and let the machine keep running for you.
If the job is still not finished when you come back, then something else might have gone wrong."

Traduciendo así en plan rápido, lo que viene a decir es que tras la conversión de la última página se invoca el comando djvused, que no muestra nada por pantalla, aunque está trabajando. La ejecución de este programa puede llevar bastante tiempo, así que hay que esperar a que acabe.

No parece encajar con tu caso, pero es uno de esos detalles que va bien saber.

Como solución, se me ocurre probar varias cosas:

1.- Actualizar tanto pdf2djvu como pdf2djvuGUI, ya que parece que en las últimas versiones se ha intentado resolver el problema.

2.- Si lo anterior no funciona, quizás exista la opción de convertir el PDF "por trozos"; es decir, primero de la página 1 a la 499 y despues de la 500 hasta el final, por ejemplo...

3.- Si no existe la opción de especificar una página de inicio (diferente a la inicial), podrías optar por "partir" el fichero PDF con PDFtk (para la que creo que también hay una GUI disponible). Con PDFtk puedes "trocear" el PDF original en trocitos más manejables por pdf2djvu y así "saltarte" la limitación/fallo hasta que lo corrijan.

De nuevo, espero haberte ayudado.

Un saludo,

Self.

1:32 p. m.

Fermat ha dicho que…

Hola Self, nuevamente x estos lares ;), te cuento estuve chequeando los inconvenientes nuevamnete y resulta q un complemento del PdfToDjvuGUI le faltaba,ahora correr genial. ah sabes te escribotambien para pedir me expliques de manera detallada sobre como pasar archivos .Tiff a .djvu, espero me puedas servir nuevamnt. gracias de antemano. atte Fermat.

8:43 p. m.

Xavi Aznar ha dicho que…

@Fermat: Me alegro que solucionaras los problemas con Pdf2DjVuGUI.

En cuanto a lo de convertir los ficheros TIFF a DjVu, explico cómo hacerlo en la entrada. En su momento estuve consultando la página de documentación de djvulibre en SourceForge y vi que para las imágenes en blanco y negro el conversor adecuado era 'cjb2' (sólo convierte TIFFs o BPM a djvu). Estuve haciendo algunas pruebas con ficheros TIFFs sueltos, cambiando parámetros para comprobar el resultado hasta que di con una combinación que me satisfacía... Después busqué cómo procesar todos los ficheros mediante un script en Google y poco más...

De todas formas, desde que encontré DjVuToy, no puedo dejar de recomendarlo; échale un vistazo.

Un saludo.

6:28 p. m.

Anónimo ha dicho que…

Hola.

1. Es mejor que escanees en gris. Teniendo la imagen en gris, puedes aplicarle el threshold exacto para pasarla a blanco y negro, además de muchas otras cosas que no puedes hacer (o no deberías) con imágenes en blanco y negro, como corregir rotación, sharpen, etc.

2. Los programas que vienen con el escáner y en general casi todos los programas para escanear limpian las imágenes o corrigen el color. Te interesa obtener la imagen cruda que envía el escáner y procesarla en un solo paso. Para esto, usa VueScan y salida raw.

3. Las imágenes escaneadas en gris hay que procesarlas para corregir inclinación, ajustar márgenes y tamaño de página, limpiar ruido, etc. Usa Scan Tailor, Scan Kromsator o unpaper.

4. cjb2 no permite compresión multipágina, que es la característica que hace que djvu supere ampliamente a pdf en tamaños de archivo. En todo lo demás, son similares. Usa minidjvu para comprimir con diccionario compartido.

5. Si decides usar cjb2, tal y como lo haces, está comprimiendo sin pérdidas. No tiene mucho sentido hacerlo así, porque la digitalización de un libro en papel siempre conlleva pérdida de calidad. Tal y como lo haces, el tamaño es equivalente al que puedes obtener con un PDF en JBIG2 (lo que pasa es que DjView solo exporta en PDF Group 4, que ocupa más).

6. La portada deberías al menos escanearla en color y comprimirla como imagen en color con c44.

7. djvm tarda muchísimo en insertar una página en un libro grande. Es mejor crear una lista ordenada de las páginas en una varable de entorno, desde un archivo batch (que permite líneas de comando y variables suficientemente largas), y pasar esta variable a djvm -c de una vez, o dividiendo la lista en partes (con -c al principio y -i en las sucesivas).

8. No solo puede crearse OCR, sino que deberías hacerlo. Las fórmulas matemáticas no las reconocerá bien, pero da igual, porque tú verás la imagen. El problema es que no es facil crear OCR para djvu. Si te interesa, usa FineReader, FRFGrab y FRFRFPatch. También puedes usar Tesseract o cuneiform, con salida hocr que tendrías que convertir al formato de djvused.

9. WinDjView guarda las anotaciones en una base de datos interna no sé dónde, para no modificar los archivos djvu. En cualquier caso, así es posible añadir anotaciones con djvused (ver manual y archivo con todas las anotaciones posible que viene de muestra en el fuente de djvulibre).

5:59 p. m.

Anónimo ha dicho que…

10. Si quieres evitar nombrar los archivos como xxx.tif.djvu, puedes usar %~nf.djvu en el for (ver ayuda de for)

6:00 p. m.

Xavi Aznar ha dicho que…

@Anónimo: En primer lugar, WOW! Eres una fuente enorme de conocimientos sobre DjVu!.

Este artículo lo escribí para documentar mis primeros pasos con el formato DjVu; como ves, lo hice todo de forma manual, aunque ahora lo hago casi todo con DjVuToy, del que he hablado en otro comentario más arriba (por comodidad, básicamente).

En cuanto al escaneado, ahora lo realizo en escala de grises, como sugieres. Primero hago un "preview" y después ajusto los márgenes al texto, a mano, justo antes de realizar el scan propiamente dicho... De las herramientas que comentas, me sonaba 'unpaper', pero nunca lo he utilizado. Para escanear utilizo el programa que viene con Windows 7.

No realizo ningún procesado sobre la imagen obtenida a partir del scan. La utilización de un software OCR la descarté por el problema con las ecuaciones (el texto como tal es menos importante para mí).

Hace tiempo leí sobre cómo utilizar Tesseract para reconocimiento de caracteres fonéticos y cosas por el estilo... Me dio la impresión de que más que un OCR, lo que permitía el software era "insertar" la capa de texto reconocido de forma manual... Veo que estaba equivocado.

Finalmente, en cuanto a la ubicación de las notas en WinDjView, se almacenan en el registro de Windows. (Lo comenté en esta entrada de un blog paralelo). Esto es un problema cuando cambias de ordenador o de sistema operativo...

Gracias por tu aportación!!

Self

11:08 p. m.

Anónimo ha dicho que…

Hola.

Yo estudio Matemáticas y el ORC resulta especialmente útil para buscar definiciones, teoremas por nombre, o simplemente una frase que te recuerde a algo. Muchos conceptos se definen a partir de otros ya expuestos, y las búsquedas suelen ser muy útiles. En libros con más texto, el OCR permite seleccionar y copiar.

Tesseract es un programa OCR de línea de comandos. Es bastante rudimentario y no tiene interfaz gráfica, pero de momento reconoce idiomas que FineReader no lee (como Árabe o Hindi). Además, es posible entrenarlo para reconocer nuevos símbolos o idiomas (los que sean). Hasta hace poco, Tesseract devolvía salida en formato de texto simple solamente (sin coordenadas), y había que usar una opción para generar patrones de entramiento para obtener las coordenadas y poder crear OCR para DjVu. Desde la versión 3, sin embargo, Tesseract soporta salida en el nuevo estándar hOCR, que puedes convertir fácilmente al formato de djvused.

No sé muy bien qué hará DjVuToy porque no lo he probado, pero, viendo unas capturas de pantalla, dudo que ofrezca ninguna característica nueva respecto a las que ya ofrecen los programas de línea de comandos de DjVuLibre y minidjvu.

Sobre unpaper, no te lo recomiendo. Es un programa de línea de comandos y requiere intervención del usuario para configurar sus opciones. Por el mismo precio tienes ScanKromsator, que tiene interfaz gráfica y tienes que hacer todo a mano, pero la capacidad que ofrece es inigualable. Finalmente, si prefieres ahorrarte el trabajo y aceptas una solución automática donde los resultados no sean perfectos pero en general sean aceptables, te recomiendo Scan Tailor. Con este último programa podrás procesar las imágenes escaneadas sin hacer nada, y obtener imágenes limpias en blanco y negro listas para comprimir (salvo si el documento tiene fotos, que tendrás que usar ST Split o similar para separar las fotos como fondo).

Gracias por lo de WinDjView, aunque no he visto aún en qué parte del registro se guardan las anotaciones. En cualquier caso, creo que puedes salvar las anotaciones desde File > Export bookmarks... No es un formato estándar usado por ningún otro programa, pero te vale para otra instalación de WinDjView.

Yo uso ScanKromsator, pero tardé bastante en hacerme una idea global de qué permitía hacer y qué ventajas me ofrecía y quería usar, porque es un lío. Una vez controlado por encima este asunto, me hice un script para crear un libro en DjVu de calidad a partir de las imágenes procesadas con SK, ya que existían muchísimos comandos y pasos a realizar. Mi script usa en muchas ocasiones las utilidades de ImageMagick, que seguramente te resulten muy útiles en algunos casos.

7:15 a. m.

Anónimo ha dicho que…

Por último, la utilidad principal que voy veo del formato DjVu es poder distribuir libros por Internet en unos pocos MBs. Para un uso personal, siempre es más cómodo PDF, pero cuando existen restricciones de espacio o costes añadidos, como al transmitir archivos por Internet, DjVu es la mejor opción.

También puede ser útil para el almacenamiento de una biblioteca de cualquier tamaño, porque nos ahorrarmos bastante espacio, y a 600dpi la calidad de impresión no puede distinguirse fácilmente del original a simple vista (salvo que nos acerquemos mucho). Doblando la resolución a 1200dpi, es imposible percibir alguna diferencia (y el tamaño del archivo tan solo aumenta proporcionalmente a la resolución y no a su cuadrado!).

En conclusión: DjVu es el formato del futuro para distribuir libros por la red. El problema es que aún faltan conocimientos y utilidades para que cualquiera pueda crear un e-book de calidad en DjVu.

7:27 a. m.

Xavi Aznar ha dicho que…

@Anónimo: Matemáticas... uhm... Yo un día de estos acabaré Física ;)

De hecho, empecé a utilizar DjVu al convertir los libros de la carrera a formato digital. La conversión a PDF generaba unos ficheros enormes, inmanejables en el portátil viejo (especialmente al hacer scroll).

El formato DjVu resulta mucho más liviano y ágil. Como los documentos que genero en formato DjVu son para uso personal, no me preocupa demasiado el tema de la calidad (especialmente de cara a reimprimir, cosa que no haré nunca). El libro en formato digital lo conservo 1 año, si todo va bien (o hasta que supero la asignatura) en mi carpeta de DropBox, lo que me permite tenerlo siempre disponible. Aquí, de nuevo, DjVu supera a PDF (por el menor tamaño), aunque pierde puntos en cuanto a que en cualquier ordenador es fácil encontrar un lector de PDF's; el lector de DjVu tengo que descargarlo siempre (o llevarlo en modo "portable" en un pincho USB)

A partir del libro genero apuntes a mano (bueno, en LyX), de manera que no suelo consultar el libro en DjVu (salvo en contadas ocasiones).

De todas formas, de cara al curso que viene, tus consejos me vendrán bién para mejorar mi flujo de trabajo, especialmente en la fase de "preparación" de los materiales.

Intentaré probar los programas que me comentas y hablar de ellos en el blog dedicado a los estudios: Física en la UNED.

De nuevo, gracias por iluminarme!!

Un saludo,

X.

8:15 p. m.

Anónimo ha dicho que…

Yo también he notado lo del scroll en mi netbook. Acrobat es un mamotreto mau poco optimizado para leer en ordenadores limitados.

Los usos que le damos tú y yo a DjVu son diferentes. Tú lo usas para tener una copia legile en poco espacio de los capítulos que te interesan y que puedas usar cómodamente en el portátil para estudiar. Yo lo uso para tener una copia del libro completo para archivar, con buena calidad y poco espacio, y después raramente lo leo (y tampoco los he compartido, de momento). Cuando trabaja de becario en la universidad y los vagos se marchaban después de otro día sin hacer nada, yo aprovechaba para imprimir los libros en su impresora. Nunca me llegó a compensar lo que me ahorraba con el trabajo invertido, pero al menos puedo llevar donde quiera una buena biblioteca sin cargar con cajas de libros (nunca se sabe qué puedes necesitar).

Me apunto lo de Lyx, que no conocía, y así puedo pasar del editor de ecuaciones de LibreOffice, que no te deja cambiar el estilo de todas las fórmula de una vez, y paso de ir una por una.

Seguramente Scan Tailor te resulte muy útil, aunque no sé como preparas las imágenes cuando tienen fotos incluídas. Con DjVu se puede hacer, pero no es sencillo.

8:19 a. m.

Anónimo ha dicho que…

Veo que no se escribir. Espero que lo hayas podido entender todo.

8:20 a. m.

Xavi Aznar ha dicho que…

@Anónimo: Pues sí, el uso que damos a los libros en formato en DjVu es algo diferente, pero los dos intentamos aprovechar al máximo las ventajas que ofrece.

Si utilizar mucho PDF, quizás te interesaría echarle un vistazo a Foxit PDF Reader (o incluso a Sumatra PDF Reader). Foxit es gratuito pero limitado en cuanto a la funcionalidad; todo lo relacionado con anotaciones y modificiación del PDF puede utilizarse pero introduce una marca de agua en el PDF "anotado". Sin embargo, ofrece absoluta compatibilidad y la misma funcionalidad (más o menos) que Adobe Reader (quizás alguna cosa avanzada se le escape, pero nunca me he topado con algo así). Tiene versión para Linux, entre otras, pero en su momento yo lo utilicé con Wine (sin problemas).

En cuanto a Sumatra PDF Reader, es muy minimalista, y no lo he utilizado (es sólo un visor, mientras que el de Foxit permite escribir, subrayar, etc...)

Los dos son mucho más ligeros que Adobe Reader y creo que existen en versión portable.

En cuanto a LyX, es una apuesta segura, especialmente si tienes que escribir fórmulas mátemáticas. Hacerlo en Word era una pérdida de tiempo, además de que no cubría todas mis necesidades... Para que te hagas una idea, las fórmulas se escriben tal y como las "piensas", por decirlo de algún modo. Si habías utilizado el editor de ecuaciones de Wordperfect -y creo que OpenOffice y derivados utilizan algo similar- no te resultará complicado.

Un ejemplo: \int_0^\infty dx e^-\beta x^2 te daría sería la integral entre cero e infinito de la exponencial de beta por x cuadrado. LyX utiliza la potencia de LaTeX pero le añade una capa gráfica para hacerlo más amigable y sencillo. Puedes introducir las ecuaciones, hasta que le pillas el truco, a base de menúes y opciones "a lo Word/OpenOffice", pero cuando tienes un poco de práctica, no vuelves a utilizar prácticamente el mouse para nada (con la velocidad que éso implica). Te cuelgo una página del resumen que estoy haciendo de Física Estadística para que veas las posibilidades de LyX: ejemplo.

Finalmente, con respecto al comentario de las imágenes en DjVu, DjVuToy no hace distinciones -hasta donde yo se- entre páginas de sólo texto y páginas con gráficos o imágenes...

Y en cuanto a la facilidad de comprensión de tus comentarios, créeme: puedes competir con Cervantes teniendo en cuenta lo que suele verse en los foros de internet ;)

De nuevo, recibe un cordial saludo,

X.

9:52 a. m.

Anónimo ha dicho que…

Excelente, funciona perfecto!

5:26 a. m.

manu ha dicho que…

hola,bueno aunque esta entrada ya es vieja (2009), me la encontre buscando la forma de crear .djvu asi que paso a decirte que hay un programita que tiene una interfaz grafica para crearlos en windows.
se llama DjVuSolo, dejo el enlace pagina oficial
http://djvu.org/files/DjVuSolo3.1-noncom.exe
http://djvu.org/resources/
un tuto,como se usa,muy intuitivo:
http://www.tamilheritage.org/kidangku/guide/howdjvu.pdf

11:44 p. m.

Xavi Aznar ha dicho que…

@manu Gracias, no lo conocía... Le echaré un vistazo. Esta fue mi primera aproximación a la creación de ficheros DjVu y el proceso era muy manual. Con el tiempo, descubrí DjVuToy (http://self_loving.blogspot.com.es/2010/10/djvutoy-la-navaja-suiza-definitiva-para.html) y ahora no utilizo nada más. Aunque claro, siempre es interesante conocer alternativas.

2:40 p. m.

Unknown ha dicho que…

Hola, tengo un detalle. Descargue DjVuLibre para windows y para ubuntu y al momento de seguir y ejecutar los pasos que se mencionan aqui, me aparece un error o algo pasa que no genera el archivo djvu.

C:\DjVuLibre>cjb2.exe -dpi 300 "D:/errorSql.tiff" test.djvu
*** [1-13809] Reading bitmap: integer expected.
*** (..\..\..\libdjvu\GBitmap.cpp:763)

Alguien sabe como solucionarlo?

11:52 p. m.

Xavi Aznar ha dicho que…

Así a bote pronto se me ocurre que el tiff no es en blanco y negro. cjb2 espera un tiff "bitonal" y quizás errorSql.tiff no lo sea.

Déjame recomendarte DjVuToy la navaja suiza definitiva para ficheros DJVu. DjVuToy es una pequeña herramienta -sólo para windows- que permite realizar cualquier acción imaginable con ficheros djvu de manera gráfica. Échale un vistazo a ver si te sirve, ok?

Un saludo,

X.

8:39 a. m.

Anónimo ha dicho que…

Les recomiendo que visiten http://www.djvu-soft.narod.ru/soft/ , está en ruso. Aquí hay recopilación más o menos actualizada de gran parte de las herramientas para visualizar, crear y editar el formato DjVu. Hay bastantes tutoriales, asi como tambien un foro, en ruso por supuesto.

Por otra parte, para la creación de djvu es preferible en vez de DjVuSolo, DjVu Small el cual procesa carpetas y crea djvu en la versión más reciente que es la 25.

En el procesamiento de imágenes Tiff he estado experimentando con la función OCR ClearScan en Acrobat Pro, después de limpiarlas en ScanTailor, así obtengo un texto mas homogéneo para posteriormente exportar las imágenes Tiff y crear el DjVu. De este modo consigo disminuir significativamente el tamaño y mejorar la calidad del texto (visual). Solo es recomendable con escaneos a 600dpi o más. La creación y OCR lo hago con LizardTech Document Express Enterprise with DjVu (de pago).

Para la creación de los bookmarks uso PdgCntEditor del creador de DjVuToy. Edita en modo texto o modo árbol, sirve para también para PDF.

Es todo, espero les sirva.
Saludos desde el país más austral del planeta.

C. A.

2:38 a. m.

Xavi Aznar ha dicho que…

WOW! Pese al handicap de estar en ruso (nada que no pueda solucionar Google Translate y un poco de interpretación de las traducciones), el recopilatorio de herramientas dedicadas s DjVu es enorme.

Un gran aporte; ¡Gracias!

8:58 p. m.

BrainDump

Buscar este blog

Escanear documentos y convertirlos a DJVU (paso a paso)

Comentarios